ICML 2024 | 上海交大发布UP2ME，首个多用途通用时间序列分析框架

ReThinklab PaperWeekly

2024-08-23

©作者 | ReThinklab

单位 | 上海交通大学

背景

近年来，针对多变量时间序列分析的深度学习模型发展迅速，并被应用于多种不同的任务，如预测、缺失补全和异常检测等。在其中，很大一部分模型需要根据所执行任务的特性进行量身定制。例如，趋势-季节分解常被用于预测模型、条件扩散模型被用于缺失补全等。尽管这些方法非常有效，但为不同任务选择合适的特定方法也是非常困难的。

另外，即使在同一个任务中，当设置（例如预测长度）发生变化时，这类模型通常也需要从头重新训练。最近也有一些诸如 TimesNet 的通用时间序列分析架构被提出。这些模型保持主干网络的结构不变，通过更换输出头来执行不同的任务。但具体到不同的任务及其相应的设置时，模型的参数都需要从头开始训练。

自监督预训练是实现多用途通用模型的一种很有前景的方法。继 NLP 和 CV 之后，预训练方法也被用于时间序列分析。但不同于 NLP 和 CV，大多数此类方法无法与前文提到的精心设计的特定方法在性能上媲美。此外，在时间序列分析中，预训练仅仅被用于参数初始化：如果不进行参数或架构调整，预训练模型无法直接执行下游任务。

最近，上海交通大学 Rethinklab 实验室提出了名为 UP2ME (Univariate Pre-training to Multivariate Fine-tuning) 的首个多用途通用时间序列分析框架。

论文标题：

UP2ME: Univariate Pre-training to Multivariate Fine-tuning as a General-purpose Framework for Multivariate Time Series Analysis

论文链接：

https://openreview.net/pdf?id=aR3uxWlZhX

代码链接：

https://github.com/Thinklab-SJTU/UP2ME

其工作流程如图 1 所示，当数据给定但下游任务和任务设定尚未确定时，UP2ME 进行与下游任务解耦的预训练。

在不进行任何参数和架构调整的情况下，预训练模型能够在 Immediate Reaction（IR）模式下为预测、缺失补全和异常检测提供初步的合理解。一旦下游任务和设置确定，UP2ME 可以进一步通过在 Fine-tuning（FT）模式更好的适配下游任务以提供更准确的解。

▲ UP2ME的工作流程

方法：单变量预训练到多变量微调

UP2ME 采取单变量预训练到多变量微调的方法：首先 UP2ME 在单变量设定下在给定数据集上进行预训练，以捕捉时序依赖。预训练好的模型可以在 IR 模式下提供初步解决方案；随后 UP2ME 在多变量设定下进行微调，以捕捉跨通道依赖并调整时序依赖，从而提供更精确的解决方案。

单变量预训练：时序依赖捕捉

▲ 图2：单变量预训练

数据生成

如图 2 所示，预训练采用 Masked AutoEncoder (MAE) 的方法，但与之前的时间序列 MAE 方法相比，UP2ME 在数据样例生成上有两点不同：

1. 可变窗口长度（VariableWindow Length）：与之前的使用定长窗口的方法不同，为应对下游任务对于输入输出窗口长度的多样化需求，UP2ME 在生成数据样例时使得窗口长度可变。具体实现是在生成每一个 batch 时先随机采样窗口长度，再根据窗口长度得到一个 batch 的样例。

2. 通道解耦合（Channel Decoupling）：在通道独立 (Channel Independence) 的基础上更进一步，UP2ME 完全打乱通道间的对齐关系，不再将同一时段的所有通道完全输入模型，不同时段不同通道的数据会被 pack 在一起输入模型。这一过程完全舍弃跨通道依赖，使得预训练期只关注时序依赖性。另一个好处是使用通道解耦在处理通道数较多的高维数据时效率更高。

快速响应模式

不同于之前的工作，在预训练后解码器被直接丢弃，UP2ME 保留了编码器和解码器以应对潜在的下游任务。如图 3 所示，通过将不同的下游任务建模为特定形式的掩码重构问题，UP2ME 可以在参数冻结的情况下快速响应，进行预测、缺失补全和异常检测。

▲ 图3：快速响应模式下不同任务的建模方式

预测：将未来视为被掩盖的 patch，输入的历史数据视为未被掩盖的数据进行重构；

缺失补全：找到能覆盖缺失部分的 patch 作为被掩盖的 patch，将剩余无缺失的 patch 作为未被掩盖的 patch 进行重构；

异常检测：迭代的掩盖每一个 patch，并用剩余的 patch 进行重构，迭代执行完后得到一个重构序列，与原始序列进行比较找出异常点。

尽管在三个下游任务中的掩码的分布和比例与预训练时不同，实验结果表明 UP2ME 的快速响应模式具有良好的泛化性，甚至可以与一些特定任务方法相媲美。

多变量微调：跨通道依赖捕捉

在微调时，下游任务及其相应设定已被确定，UP2ME 将一个多变量实例作为模型输入，执行下游预测，缺失补全和异常检测任务。如图 4 所示，UP2ME 冻结预训练的编码器和解码器，在它们之间插入可学习的 Temporal-Channel Layers。TC layer 的主要功能是跨通道依赖，并顺带调整时序依赖，以缩小预训练和下游任务之间的差距。

▲ 图4：多变量微调

稀疏依赖图构建

最直接的捕捉跨通道依赖的方法是对所有通道使用 Self-Attention，相当于构建一个全连接的依赖图。然而，平方复杂度限制了其在高维数据集中的应用。因此，有必要构建一个稀疏图，用更少的边来保留绝大部分依赖关系。

由于预训练后的编码器可以对输入序列进行有意义的表征，UP2ME 利用它来构建稀疏图。具体而言，输入序列通过编码器被编码为 token，对每个通道的 token 使用 max pooling 可以得到该通道的表征，通过衡量两两通道之间的 cosine similarity 可以得到一个关联矩阵，关联矩阵的最大个元素和每个通道的个最近邻的交集被用作最终的稀疏图：

以上图构建过程不同于之前针对多变量时间序列的方法，如通道独立性 (PatchTST)、低秩近似 (Crossformer）、基于统计的方法等。UP2ME 使用预训练编码器构建了一个具有最多有条边的非线性稀疏图。由于没有需要学习的部分，图构建过程中产生的额外计算开销也是很小的。

Temporal-Channel Layer

为利用以上依赖图进行跨通道关联捕捉，并在同时进行时序依赖的调整，UP2ME 在参数冻结的编码器——解码器之间插入若干 Temporal-Channel (TC) Layers。为了尽可能减少 inductive biase，每个 TC layer 包含一个标准Transformer layer 和一个标准 Graph Transformer layer。Patches 交替通过两种 layer 来捕捉两种不同的依赖：

由于稀疏图的使用，单个 TC layer 的复杂度为，为通道数，为每个通道的 patch 数，即计算开销对于通道数是线性的。

实验

实验在八个真实世界数据集上进行。每个数据集上，进行了三种不同的下游任务：预测、缺失补全和异常检测。在每个任务上测试不同设定下模型的表现，例如不同的预测长度和不同的缺失比例等。实验评测了两种 UP2ME 模式：1）UP2ME（IR）：快速响应模式，直接使用预训练模型提供初步解决方案；2）UP2ME（FT）：微调模式，适配特定的下游任务和设定。

针对每个任务，三类方法被用作 baseline：1）特定任务方法；2）通用架构 TimesNet；3）预训练方法。

主要实验结果

主要实验结果表明，UP2ME 在预测和缺失填补方面表现出 SOTA 的性能，在异常检测上接近特定任务方法的性能。值得注意的是，即使不经过参数调整，UP2ME（IR）在一些数据集和 setting 上也可以和特定任务方法媲美。此外，在同一数据集的不同任务和不同设定上，UP2ME（IR）模型共用同一套参数，这表明 UP2ME 有一定的针对不同任务的泛化能力。

预训练的消融实验

正如图 5 所示，尽管网络架构相同，但从头训练的效果不如预训练后再微调。没有可变窗口长度，IR 模式无法处理不同的预测长度，因此表现不佳。通道解耦合对两种模式都略有提升，并对微调贡献更大。

▲ 图5：预训练的消融实验

预训练中掩码比例的影响

图 6 展示了预训练中掩码比例的影响。较低的掩码比例（≤ 30%）会导致 IR 模式性能下降，而过高的掩码比例（≥ 70%）对 IR 和 FT 模式都有负面影响。最佳比例是 40% 至 60%，在此范围内，两种模式的表现都良好，并且都优于从头训练（0.369）。主要实验中使用的默认掩码比例是 50%。

▲ 图6：预训练中掩码比例的影响

微调中的依赖图构建

图 7 显示了没有图结构的通道独立表现最差。由预训练编码器构建的图优于通过随机过程、Pearson 相关性和欧氏距离构建的图。UP2ME 在较小的计算开销下逼近了理论上限，即全连接图。

▲ 图7：不同图构建方式的影响

微调中的超参数r的影响

图 8 显示，增大超参数可以提高性能，但同时也会增加内存占用。超过某个阈值后，性能提升变得很小，但内存占用迅速增加。这表明 UP2ME 可以通过相对稀疏的图保持最重要的相关性。为了在性能和效率之间找到平衡，默认的设置为。

▲ 图8：超参数r的影响

预测中历史窗口长度的影响

如图 9 所示，除了 TimesNet 外，其他模型的性能在窗口长度从 120 增加到 720 时呈上升趋势。进一步增加到 1440 时，PatchTST、SimMTM 和 UP2ME (FT) 的性能变差，而 UP2ME (IR) 则能进一步利用更长的历史窗口来提高预测效果。由于 UP2ME (IR) 无需为不同长度重新训练，我们可以便捷的调整历史窗口长度以在实践中获得更好的预测准确度。

▲ 图9：历史窗口长度对预测准确性的影响

有限数据场景的迁移

图 10 评估了 UP2ME 在 ETTm2 数据集上的有限数据场景下的表现。数据充足时，PatchTST、SimMTM 和 UP2ME 的性能相似。然而，在数据有限的场景（≤ 10%）下，未经过微调的 UP2ME (IR) 表现最佳。

▲ 图10：有限数据场景下各模型的表现

总结

本文提出了名为 UP2ME 的首个通用多变量时间序列分析框架。从技术上，它采用了单变量预训练到多变量微调的范式，在预训练阶段捕捉时序依赖，并在微调阶段融入跨通道依赖。从功能上，预训练的 UP2ME 在不进行参数调整的情况下，为预测、缺失补全和异常检测提供了初步合理的解决方案，这在之前是未曾实现的。通过微调，准确性可以进一步提高。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

继续滑动看下一个

PaperWeekly

向上滑动看下一个

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

关于字节基建

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

ICML 2024 | 上海交大发布UP2ME，首个多用途通用时间序列分析框架

数据生成

实验

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

关于字节基建

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

生成图片，分享到微信朋友圈

ICML 2024 | 上海交大发布UP2ME，首个多用途通用时间序列分析框架

数据生成

实验

您可能也对以下帖子感兴趣